iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 11
7
AI & Machine Learning

玩轉資料與機器學習-以自然語言處理為例系列 第 11

周末特別節目-iThome鐵人文章分析

  • 分享至 

  • xImage
  •  

提醒: 本篇文章的code在這裡: iThome鐵人文章分析

MurMur

在寫這堆文章前,自己對於這個自己文章的期許,大約是用有架構跟條理的方式呈現給大家。這有它的好處,大家要集中精神學習一門知識時絕對是利器;不過當然也有壞處,因為不直接解決問題,所以沒什麼人要理我。所以我今天要反其道而行,來玩一個好玩點的遊戲,而且這個遊戲會在未來的周末持續出現,然後越來越精彩,敬請期待。

總體目標

我的目標是預測文章的瀏覽人次。

  • input: 一篇文章或是url
  • output: 未來十天的瀏覽量

今日目標

由於這個工程非常浩大,所以不太可能一次做完,小弟我會氣力耗盡。因此,今天會教大家怎麼把文章爬下來,並且作揖些簡單有趣的分析。也剛好順應著寫文章的節奏,盡可能使用到前面文章已經使用到的工具。
那麼,咱們上工吧!

爬蟲部分

如果對於以下語法不熟悉,可以參考之前的文章...
網路爬蟲Day1 - 概述
網路爬蟲Day2 - html檔的取得及常見問題
網路爬蟲Day3 - html檔的取得及常見問題(續)
網路爬蟲Day4 - html檔的解析

  1. 首先把套件引用好
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
from datetime import datetime
import matplotlib.pyplot as plt
  1. 把接下來要爬的頁面準備好
# 首先我們先到iThome鐵人的首頁,把第一頁到最後一頁的網址抄下來
url = "https://ithelp.ithome.com.tw/ironman?page=1#ir-list"
res = requests.get(url)  ## 先爬下第一頁
soup = BeautifulSoup(res.text, 'lxml')
maxpage = int(soup.select('.pagination')[0].find_all('a')[-2].text)  ## 定位出最後一頁的頁數

urls = []
for i in range(maxpage):  ## 把接下來要爬的網頁準備好
    page = i + 1
    url = "https://ithelp.ithome.com.tw/ironman?page=" + str(page) + "#ir-list"  ## 大家可以觀察每一頁url的變化
    urls.append(url)
    
# 接著爬入每一頁,把每個文章的比賽分類,以及其網址抄下來。之所以要抄分類,是因為文章網址內部找不到分類,所以只好在這邊些記錄下來。
articles_rows = []
for idx, url in enumerate(urls):  ## enumerate這個東西很好用,請大家多多利用
    res = requests.get(url)
    soup = BeautifulSoup(res.text, 'lxml')

    articles = soup.select('.ir-list')  ## 找出該頁面的所有文章

    for article in articles:
        article_dict = {}
        group = article.select('.group-badge__name')[0].text.replace(' ', '').replace('\n', '')  ## 定位該篇文章參與比賽的參賽組別
        article_url = article.select('.ir-list__title')[0].select('a')[0]['href']  ## 紀錄該篇文章的網址
        article_dict['group'] = group  
        article_dict['article_url'] = article_url
        articles_rows.append(article_dict)
    
    if idx % 10 == 0:  ## 讓你大概知道進度到哪了
        print(idx)
  1. 放入DataFrame中
df = pd.DataFrame(articles_row)
df  ## 查看DataFrame的樣子

https://ithelp.ithome.com.tw/upload/images/20171216/201075760lzejFb9mL.jpg

  1. 進入到每一篇文章中擷取資訊
    這一段約莫會跑個十分鐘,我懶得寫非同步惹,大家稍微等等吧,喝杯咖啡。
def ArticleContentCrawler(row):
    url = row['article_url']
    res = requests.get(url)
    soup = BeautifulSoup(res.text, 'lxml')
    
    ## linke count
    like_count = int(soup.select('.likeGroup__num')[0].text)  ## 定位讚的次數

    ## article header
    header = soup.select('.qa-header')[0]
    corpusinfo = header.select('h3')[0].text.replace(' ', '').replace('\n', '')
    corpus_title = corpusinfo.split('第')[0]  ## 定位文章集的的主題
    corpus_day = int(re.findall(r'第[\d]+篇', corpusinfo)[0].replace('第', '').replace('篇', ''))  ## 定位參賽第幾天

    article_title = header.select('h2')[0].text.replace(' ', '').replace('\n', '')  ## 定位文章的title
    writer_name = header.select('.ir-article-info__name')[0].text.replace(' ', '').replace('\n', '')  ## 定位作者名稱
    writer_url = header.select('.ir-article-info__name')[0]['href']  ## 定位作者的個人資訊業面

    publish_date_str = header.select('.qa-header__info-time')[0]['title']  ## 定位發文日期,為了讓日期的格式被讀成python的datetime,所以做了下面很瑣碎的事
    date_items = pd.Series(publish_date_str.split(' ')[0].split('-') + publish_date_str.split(' ')[1].split(':')).astype(int)
    publish_datetime = datetime(date_items[0], date_items[1], date_items[2], date_items[3], date_items[4], date_items[5])

    browse_count = int(re.findall(r'[\d]+', header.select('.ir-article-info__view')[0].text)[0])  ## 定位瀏覽次數
    
    ## markdown_html
    markdown_html = soup.select('.markdown__style')[0]
    text_content = "\n".join([p.text for p in markdown_html.select('p')])  ## 定位所有文章的段落,這邊我懶得爬讀片跟程式碼了
    h1 = [h1.text for h1 in markdown_html.select('h1')]  ## 定位文章的標題們
    h2 = [h2.text for h2 in markdown_html.select('h2')] 
    h3 = [h3.text for h3 in markdown_html.select('h3')]
    h4 = [h4.text for h4 in markdown_html.select('h4')]
    h5 = [h5.text for h5 in markdown_html.select('h5')]
    h6 = [h6.text for h6 in markdown_html.select('h6')]
    
    row['like_count'] = like_count
    
    row['corpus_title'] = corpus_title
    row['corpus_day'] = corpus_day
    row['article_title'] = article_title
    row['writer_name'] = writer_name
    row['writer_url'] = writer_url
    row['publish_datetime'] = publish_datetime
    row['browse_count'] = browse_count
    
    row['text_content'] = text_content
    row['h1'] = h1 if h1 != [] else None  ## 如果是空list的話紀錄為None後面比較好處理
    row['h2'] = h2 if h2 != [] else None
    row['h3'] = h3 if h3 != [] else None
    row['h4'] = h4 if h4 != [] else None
    row['h5'] = h5 if h5 != [] else None
    row['h6'] = h6 if h6 != [] else None
    
    row['crawled_date'] = datetime.now()
    
    if int(row.name) % 50 == 0:  ## 列印出進度
        print(str(row.name) + " pages crawled!")
    
    return row

df = df.apply(ArticleContentCrawler, axis=1)
df

https://ithelp.ithome.com.tw/upload/images/20171216/20107576IeupezdmEy.jpg

  1. 儲存檔案
  • 方案一: 存成csv檔
df.to_csv('ithomeironman.csv', index=False, encoding='utf8')
pd.read_csv('ithomeironman.csv')  ## 把檔案讀出來看看有沒有儲存成功
  • 方案二: 存進MongoDB
    這邊請務必先把database以及collection開好,然後我使用的是local端的MongoDB所以你電腦要裝好才有,沒有的話可以參考使用mlab,詳情見Python與MongoDB的互動
from pymongo import MongoClient
conn = MongoClient()
db = conn.ithome_ironman
collection = db.articles
cursor = collection.insert_many(list(df.T.to_dict().values()))  # 這是DataFrame塞進Mongo的常見寫法

簡單分析

這邊之所以會說是簡單,是因為後面還有更精采的,會在比賽期間在周末持續推出,敬請期待。

  1. 來看看大家哪一天發文的長度比較長
    很奇怪的發現後面三天異常的高,結果發現只有一位參賽者玩到第14天以後。
content_length_each_day = df.groupby('corpus_day').mean()['content_length']
content_length_each_day.plot(kind='bar')
plt.show()

https://ithelp.ithome.com.tw/upload/images/20171216/20107576h4e6q5juSs.png

  1. 各組的發文長度
    結果發現Data人寫文章都比較精(ㄐㄧㄢˇ)實(ㄉㄨㄢˇ)。
content_length_each_group = df.groupby('group').mean()['content_length']
content_length_each_group.plot(kind='bar')
plt.show()

https://ithelp.ithome.com.tw/upload/images/20171216/20107576M8DTmA0V4r.png

  1. 各組的的文平均瀏覽次數(來點敏感的吧)
    感覺DevOps的觀眾比較多,哼哼,不看就不看。
browse_count_each_group = df.groupby('group').mean()['browse_count']
browse_count_each_group.plot(kind='bar')
plt.show()

https://ithelp.ithome.com.tw/upload/images/20171216/20107576nYL3kZpY7y.png

  1. 各組的的文平均讚數(來點更刺激的吧)
    感覺ModernWeb的觀眾比較願意給讚(絕對不是因為我們不夠優秀,都是觀眾的問題)。
like_count_each_group = df.groupby('group').mean()['like_count']
like_count_each_group.plot(kind='bar')
plt.show()

https://ithelp.ithome.com.tw/upload/images/20171216/201075760PV3JIy2pF.png

結語

因為後面就是很精彩但很長很長的表格,所以這邊做個總結,系列文章會在下個周末繼續推出,預祝各位比賽順利拉~~~


個參賽者的比較(先後順序不代表排名,表格可以左右拉動)

df_group_corpus_title = df.groupby(['group', 'corpus_title'])
df_group_first = df_group_corpus_title.first()[['writer_name', 'writer_url']]
df_group_count = df_group_corpus_title.count ()[['article_url']]
df_group_mean = df_group_corpus_title.mean()[['like_count', 'browse_count', 'content_length']]
df_group_max = df_group_corpus_title.max()[['corpus_day']]
df_sorted = df_group_count.join([df_group_first, df_group_mean, df_group_max])
df_sorted.columns = ['article_count', 'writer_name', 'writer_url', 'avg_like_count', 'avg_browse_count', 'avg_article_length', 'max_corpus_day']
df_sorted = df_sorted[['avg_like_count', 'avg_browse_count', 'article_count', 'avg_article_length', 'max_corpus_day', 'writer_name', 'writer_url']]
# df_sorted.to_csv('sorted.csv')
df_sorted
group corpus_title avg_like_count avg_browse_count article_count avg_article_length max_corpus_day writer_name writer_url
AI&MachineLearning 以100張圖理解NeuralNetwork--觀念與實踐系列 2.0 449.8333333333333 6 2366.8333333333335 6 IcodesoIam. https://ithelp.ithome.com.tw/users/20001976/ironman
AI&MachineLearning 利用MSBotframework與CognitiveService建構自用智慧小秘書系列 0.38461538461538464 538.3846153846154 13 977.6153846153846 13 DuranHsieh https://ithelp.ithome.com.tw/users/20091494/ironman
AI&MachineLearning 深度學習環境安裝筆記系列 0.0 366.2 5 478.2 5 a7552005 https://ithelp.ithome.com.tw/users/20091307/ironman
AI&MachineLearning 玩轉資料與機器學習-以自然語言處理為例系列 0.3 580.1 10 1106.9 10 GoatWang https://ithelp.ithome.com.tw/users/20107576/ironman
AI&MachineLearning 讓我們一起來見見歐美語音助理界的當紅炸子雞-Alexa吧!系列 0.0 629.375 8 566.625 8 Bonny https://ithelp.ithome.com.tw/users/20107290/ironman
DataTechnology GraphQL+ApolloData入門系列 0.7 510.5 10 958.9 10 polo https://ithelp.ithome.com.tw/users/20103438/ironman
DataTechnology "Hadoopecosystem工具簡介,安裝教學與各種情境使用系列" 0.46153846153846156 521.3076923076923 13 889.6153846153846 13 stana https://ithelp.ithome.com.tw/users/20107349/ironman
DataTechnology MicrosoftBotFramework30天上手系列 0.4444444444444444 522.6666666666666 9 457.77777777777777 9 Wolke https://ithelp.ithome.com.tw/users/20046160/ironman
DataTechnology Python學習筆記系列 0.16666666666666666 543.3333333333334 12 492.25 12 Bonny https://ithelp.ithome.com.tw/users/20107290/ironman
DataTechnology 職場老鳥的資料科學初體驗-R語言專案實作紀錄系列 0.0 487.8333333333333 12 399.9166666666667 12 Kimi0 https://ithelp.ithome.com.tw/users/20107033/ironman
DevOps 30天入門Ansible及Jenkins[2018]系列 0.4 376.6 5 946.4 5 tsoliangwu0130 https://ithelp.ithome.com.tw/users/20103346/ironman
DevOps Nightwatch101:使用Nightwatch實現End-to-EndTesting系列 0.3333333333333333 2213.6666666666665 6 666.6666666666666 6 cythilya https://ithelp.ithome.com.tw/users/20092232/ironman
DevOps Ops的轉職之路-Puppet從入門就放棄系列 0.0 476.8 5 1363.8 5 shazi7804 https://ithelp.ithome.com.tw/users/20089211/ironman
DevOps 大型敏捷專案的DevOps系列 0.0 634.2 5 469.4 5 AkitoSun https://ithelp.ithome.com.tw/users/20094400/ironman
DevOps 用30天來介紹和使用Docker系列 0.9166666666666666 636.8333333333334 12 1289.25 12 yangj26952 https://ithelp.ithome.com.tw/users/20103456/ironman
ModernWeb 30天串接30個GoogleAPIs的服務應用系列 0.875 756.0 8 833.125 8 KingTzeng https://ithelp.ithome.com.tw/users/20103130/ironman
ModernWeb 30天使用Node.js在AWS上開發後端系列 0.6666666666666666 712.1666666666666 6 840.1666666666666 6 neilwang https://ithelp.ithome.com.tw/users/20107336/ironman
ModernWeb ASP.NETMVC網頁程式介紹系列 0.0 392.7142857142857 7 875.7142857142857 7 小魚 https://ithelp.ithome.com.tw/users/20105694/ironman
ModernWeb Confluence線上協同作業之平台系列 0.0 487.6363636363636 11 1059.6363636363637 11 ektrontek https://ithelp.ithome.com.tw/users/20003705/ironman
ModernWeb Expo---跨平台App開發從零到上架系列 0.0 556.0909090909091 11 772.2727272727273 11 iamcxa https://ithelp.ithome.com.tw/users/20103342/ironman
ModernWeb Go!從無到打造最佳行動網站系列 0.6 714.2 5 1226.2 5 網襪工程師 https://ithelp.ithome.com.tw/users/20107302/ironman
ModernWeb JavaScript基礎二三事系列 0.38461538461538464 556.0 13 1129.6923076923076 13 Simon https://ithelp.ithome.com.tw/users/20104221/ironman
ModernWeb Nest.jsframework30天初探系列 0.4166666666666667 591.5 12 752.25 12 Michael https://ithelp.ithome.com.tw/users/20107195/ironman
ModernWeb Next.js+各種套件組合系列 0.9230769230769231 641.0 13 1527.1538461538462 13 polo https://ithelp.ithome.com.tw/users/20103438/ironman
ModernWeb PHPlaravel的邂逅系列 0.0 488.38461538461536 13 551.8461538461538 13 oliver https://ithelp.ithome.com.tw/users/20107335/ironman
ModernWeb PixiJS,方便好用的WebGL內容產生工具系列 0.3333333333333333 578.0 12 1309.1666666666667 13 angelliya00 https://ithelp.ithome.com.tw/users/20106532/ironman
ModernWeb TypeScript-初學之路系列 0.25 485.625 8 1601.625 8 TomasLin https://ithelp.ithome.com.tw/users/20103639/ironman
ModernWeb TypeScript初學之路系列 0.0 534.5454545454545 11 1441.1818181818182 11 TomasLin https://ithelp.ithome.com.tw/users/20103639/ironman
ModernWeb WhatDoestheCodeIgniterSay?系列 0.0 448.85714285714283 7 497.2857142857143 7 qian247k https://ithelp.ithome.com.tw/users/20107530/ironman
ModernWeb ZerotoherowithReact.js系列 1.1111111111111112 534.8888888888889 9 1174.4444444444443 9 anniesnoopymd https://ithelp.ithome.com.tw/users/20107150/ironman
ModernWeb 「放下屠龍刀!論開發者如何與設計師打交道」系列 1.0 1404.0 1 1941.0 1 riven https://ithelp.ithome.com.tw/users/20107565/ironman
ModernWeb 三十哩路,我的前端學習路程系列 0.8461538461538461 591.2307692307693 13 785.6153846153846 13 米荳(mido) https://ithelp.ithome.com.tw/users/20106699/ironman
ModernWeb 初探前端之路-React-由生到死的踩地雷系列 0.16666666666666666 403.0 6 526.0 6 Luis-Chen https://ithelp.ithome.com.tw/users/20103556/ironman
ModernWeb 前端工程師養成手冊系列 3.8333333333333335 1031.75 12 2367.5833333333335 13 sfisonly https://ithelp.ithome.com.tw/users/20040221/ironman
ModernWeb 前端新手村系列 0.8333333333333334 884.8333333333334 6 1324.3333333333333 6 chris47 https://ithelp.ithome.com.tw/users/20107637/ironman
ModernWeb 如何在前端開發流程中加入使用者經驗設計-以線上相簿為例系列 0.5 559.8333333333334 12 586.25 12 yowlonglee https://ithelp.ithome.com.tw/users/20091606/ironman
ModernWeb 平時沒注意的JavaScript-JS生態系及週邊工具整理系列 0.3076923076923077 602.0769230769231 13 1866.076923076923 13 "AlexTzeng,曾苔眠" https://ithelp.ithome.com.tw/users/20107440/ironman
ModernWeb 從無到有,使用Go開發應用程式系列 0.0 445.7142857142857 7 662.7142857142857 7 Miles https://ithelp.ithome.com.tw/users/20102562/ironman
ModernWeb 從無到有,打造一個漂亮乾淨俐落的RESTfulAPI系列 0.6666666666666666 389.1666666666667 6 961.1666666666666 6 10程式中 https://ithelp.ithome.com.tw/users/20107247/ironman
ModernWeb 從零開始的網頁設計系列 1.0 315.0 1 1194.0 1 樂樂 https://ithelp.ithome.com.tw/users/20104423/ironman
ModernWeb 挑戰CSS30天系列 0.25 530.3333333333334 12 159.75 12 小斑 https://ithelp.ithome.com.tw/users/20106496/ironman
ModernWeb 改良版JS30系列 0.0 659.5 2 101.5 2 raindot https://ithelp.ithome.com.tw/users/20107375/ironman
ModernWeb 新時代的網頁框架比較--淺談Rails、Django、Phoenix、Laravel系列 0.9166666666666666 573.9166666666666 12 1524.3333333333333 12 bater https://ithelp.ithome.com.tw/users/20103651/ironman
ModernWeb 每日文章推薦系列 0.5 637.5 12 1161.4166666666667 12 fripig https://ithelp.ithome.com.tw/users/20065773/ironman
ModernWeb 用範例理解Vue.js系列 0.8333333333333334 772.1666666666666 6 951.6666666666666 6 hunterliu1003 https://ithelp.ithome.com.tw/users/20107107/ironman
ModernWeb 認識Chrome開發者工具系列 0.4166666666666667 591.6666666666666 12 1330.8333333333333 12 konekoya https://ithelp.ithome.com.tw/users/20103325/ironman
ModernWeb 跟著網頁動ㄘ動系列 0.6 680.6 5 347.0 5 EllenK https://ithelp.ithome.com.tw/users/20107540/ironman
ModernWeb 邁向JavaScript勇者之路系列 1.25 748.0833333333334 12 916.5 13 卡斯伯 https://ithelp.ithome.com.tw/users/20083608/ironman
ModernWeb 重新學習網頁設計系列 0.16666666666666666 599.75 12 947.5833333333334 12 CIAN https://ithelp.ithome.com.tw/users/20102825/ironman
ModernWeb 重新認識JavaScript系列 1.75 811.6666666666666 12 2884.75 12 KuroHsu https://ithelp.ithome.com.tw/users/20065504/ironman
Security CEH之越挫越勇系列 0.36363636363636365 680.7272727272727 11 717.0 11 虎虎 https://ithelp.ithome.com.tw/users/20103647/ironman
Security IT安全稽核系列 0.15384615384615385 539.9230769230769 13 1181.1538461538462 13 wkpeng https://ithelp.ithome.com.tw/users/20107482/ironman
Security 資安的學習心得及分享系列 0.38461538461538464 566.1538461538462 13 505.9230769230769 13 Fu-sheng https://ithelp.ithome.com.tw/users/20107445/ironman
Security 資訊系統安全與CISSP的簡單應用系列 0.0 116.5 2 813.0 2 wisdomryanlin https://ithelp.ithome.com.tw/users/20107753/ironman
SoftwareDevelopment 30天iOSAPP開發系列 0.0 589.6666666666666 6 282.1666666666667 6 d3764291 https://ithelp.ithome.com.tw/users/20107588/ironman
SoftwareDevelopment 30天從零開始使用SpringBoot跟SpringCloud建構完整微服務架構系列 0.4444444444444444 537.0 9 808.0 9 Sam https://ithelp.ithome.com.tw/users/20107338/ironman
SoftwareDevelopment 30天從零開始到使用SpringCloud建立完整微服務架構系列 0.0 689.0 3 517.3333333333334 3 Sam https://ithelp.ithome.com.tw/users/20107338/ironman
SoftwareDevelopment 30天快樂學習FunctionalProgramming系列 1.0 330.0 3 1581.3333333333333 3 阿志 https://ithelp.ithome.com.tw/users/20103386/ironman
SoftwareDevelopment BPM企業流程-EFGP開發路程系列 0.0 559.4545454545455 11 853.4545454545455 12 esther1101 https://ithelp.ithome.com.tw/users/20105722/ironman
SoftwareDevelopment Kotlin30天,通過每天一個小demo學習Android開發系列 0.6666666666666666 679.0833333333334 12 677.5 13 Don https://ithelp.ithome.com.tw/users/20107329/ironman
SoftwareDevelopment MsBotframework30天上手系列 1.5 730.5 2 49.0 3 Wolke https://ithelp.ithome.com.tw/users/20046160/ironman
SoftwareDevelopment 【UnitTest】UnitTestwithC#系列 0.09090909090909091 510.3636363636364 11 592.4545454545455 11 eyelash https://ithelp.ithome.com.tw/users/20103826/ironman
SoftwareDevelopment 來做個網路瀏覽器吧!Let'sbuildawebbrowser!系列 2.8 478.0 5 1349.4 5 微中子 https://ithelp.ithome.com.tw/users/20103745/ironman
SoftwareDevelopment 保持前進、持續優化程式碼內涵系列 0.2727272727272727 578.5454545454545 11 809.8181818181819 11 依恩 https://ithelp.ithome.com.tw/users/20107551/ironman
SoftwareDevelopment 初探Kotlin系列 0.3 486.2 10 229.9 10 randy https://ithelp.ithome.com.tw/users/20107591/ironman
SoftwareDevelopment 每天Racket3分鐘系列 0.4166666666666667 498.9166666666667 12 1380.5833333333333 12 cchuang0425 https://ithelp.ithome.com.tw/users/20085418/ironman
SoftwareDevelopment 爬蟲始終來自於墮性系列 1.625 807.3125 16 1294.0 16 Howard https://ithelp.ithome.com.tw/users/20107159/ironman
SoftwareDevelopment 看到code寫成這樣我也是醉了,不如試試重構?系列 0.4 468.4 5 1608.2 5 Miles https://ithelp.ithome.com.tw/users/20102562/ironman
SoftwareDevelopment 簡潔高效的PHP&Laravel工作術:從ElementaryOS下手的聰明改造提案系列 0.2 442.2 5 2001.0 5 shengyou https://ithelp.ithome.com.tw/users/20107229/ironman
SoftwareDevelopment 認識scala系列 0.38461538461538464 540.0769230769231 13 498.2307692307692 13 daniel0614 https://ithelp.ithome.com.tw/users/20107343/ironman
SoftwareDevelopment 那些年八歲到八十歲都可以一起寫的程式系列 0.0 594.8 5 302.6 5 MichaelHuang https://ithelp.ithome.com.tw/users/20107642/ironman
自我挑戰組 0.16666666666666666 562.75 12 802.75 12 幻幽 https://ithelp.ithome.com.tw/users/20000558/ironman
自我挑戰組 2017挨踢人生大事紀系列 0.0 602.9230769230769 13 463.3076923076923 13 牛哥 https://ithelp.ithome.com.tw/users/20022541/ironman
自我挑戰組 30天的IT大小事系列 0.0 664.0 1 198.0 1 KYOMAX https://ithelp.ithome.com.tw/users/20066863/ironman
自我挑戰組 30天的切版日記系列 1.0 535.3333333333334 12 395.25 12 Yu-Ning https://ithelp.ithome.com.tw/users/20092794/ironman
自我挑戰組 30天自我挑戰系列 0.0 671.0 1 122.0 1 claire689 https://ithelp.ithome.com.tw/users/20091382/ironman
自我挑戰組 ArasPLM開發練功30天系列 0.0 504.75 12 367.75 12 panda0909 https://ithelp.ithome.com.tw/users/20106503/ironman
自我挑戰組 D3.JS網頁視覺化學習系列 0.5 638.3333333333334 6 219.66666666666666 6 linonedollar https://ithelp.ithome.com.tw/users/20107135/ironman
自我挑戰組 GAME30天系列 1.3333333333333333 846.0 6 437.5 6 我是一支小小小小鳥 https://ithelp.ithome.com.tw/users/20107379/ironman
自我挑戰組 Kaggle的解題挑戰系列 0.0 393.6 5 704.8 5 BillLin1983 https://ithelp.ithome.com.tw/users/20103074/ironman
自我挑戰組 "Let's""Go""系列" 0.0 483.4 10 96.1 10 syiu https://ithelp.ithome.com.tw/users/20107075/ironman
自我挑戰組 Linux的學習歷程系列 0.0 272.0 1 367.0 1 小chi https://ithelp.ithome.com.tw/users/20107723/ironman
自我挑戰組 Verilog從放棄到有趣系列 0.0 400.25 4 1292.0 4 Sheng https://ithelp.ithome.com.tw/users/20107543/ironman
自我挑戰組 Vuex學習筆記系列 0.0 588.5 8 547.25 8 NomiSu https://ithelp.ithome.com.tw/users/20107601/ironman
自我挑戰組 delphi菜鳥入門日記系列 0.25 637.5 4 582.25 4 getfree84419 https://ithelp.ithome.com.tw/users/20107544/ironman
自我挑戰組 hexo-從初學到入門-again系列 0.0 150.0 1 658.0 1 josephwu https://ithelp.ithome.com.tw/users/20107307/ironman
自我挑戰組 hexo-從初學到入門系列 0.5 605.5 2 454.0 2 josephwu https://ithelp.ithome.com.tw/users/20107307/ironman
自我挑戰組 iflen(learning.python)==30:系列 0.0 535.9090909090909 11 223.27272727272728 11 j2hongming https://ithelp.ithome.com.tw/users/20091827/ironman
自我挑戰組 rails學習紀錄系列 0.6666666666666666 406.6666666666667 3 333.3333333333333 3 thehappyend https://ithelp.ithome.com.tw/users/20107708/ironman
自我挑戰組 使用PHP串接金流相關API系列 1.6 659.2 5 429.8 5 royal801991 https://ithelp.ithome.com.tw/users/20107301/ironman
自我挑戰組 再戰軟體工程系列 0.0 222.0 1 1000.0 1 Kuma https://ithelp.ithome.com.tw/users/20107429/ironman
自我挑戰組 勇者不冒險,嘴一回桌遊系列 0.15384615384615385 492.3076923076923 13 259.0 13 魯大常 https://ithelp.ithome.com.tw/users/20103688/ironman
自我挑戰組 台灣動漫創作平台開發實錄系列 0.0 647.5 2 43.5 2 raindot https://ithelp.ithome.com.tw/users/20107375/ironman
自我挑戰組 如何成為工程師?(從工地到前端工程師)系列 0.3333333333333333 583.4166666666666 12 701.3333333333334 12 dannyhuang https://ithelp.ithome.com.tw/users/20107433/ironman
自我挑戰組 如何用電商一個月從0賺到100萬系列 0.0 1177.3333333333333 6 658.1666666666666 6 ocom https://ithelp.ithome.com.tw/users/20107558/ironman
自我挑戰組 從0開始的菜鳥工程師挑戰賽系列 0.0 318.5 4 544.5 4 lf2exe https://ithelp.ithome.com.tw/users/20107727/ironman
自我挑戰組 從無到有建置一個網站過程byC#mssqlhtml5+javascript系列 0.0 673.0 1 148.0 1 qsc811022 https://ithelp.ithome.com.tw/users/20091338/ironman
自我挑戰組 成長型維運平台-單人新手到多人團隊都適用的工具系列 0.0 597.4615384615385 13 898.2307692307693 13 etsaycood https://ithelp.ithome.com.tw/users/20077752/ironman
自我挑戰組 打雜人生-腦容量不夠用就筆記筆記唄系列 0.3333333333333333 508.44444444444446 9 266.3333333333333 9 doraemon https://ithelp.ithome.com.tw/users/20107398/ironman
自我挑戰組 數位遊牧民族(DigitalNomad)系列 0.2857142857142857 662.2857142857143 7 202.28571428571428 7 alincode https://ithelp.ithome.com.tw/users/20092025/ironman
自我挑戰組 服務桌從開始到進入資安領域系列 0.5454545454545454 563.4545454545455 11 555.7272727272727 11 doraemon https://ithelp.ithome.com.tw/users/20107398/ironman
自我挑戰組 標案系列 0.0 684.0 1 144.0 1 丹尼 https://ithelp.ithome.com.tw/users/20058145/ironman
自我挑戰組 用IT看世界系列 0.8181818181818182 595.3636363636364 11 819.9090909090909 12 allenjung https://ithelp.ithome.com.tw/users/20106752/ironman
自我挑戰組 用laravel尻出自己形狀的linebot,還要撐三十天!系列 0.36363636363636365 491.8181818181818 11 662.9090909090909 11 太太 https://ithelp.ithome.com.tw/users/20107380/ironman
自我挑戰組 經濟學角度思考敏捷系列 0.0 152.0 1 365.0 1 eviler https://ithelp.ithome.com.tw/users/20107403/ironman
自我挑戰組 網頁學習日誌系列 0.0 530.25 12 475.1666666666667 13 yuski https://ithelp.ithome.com.tw/users/20107321/ironman
自我挑戰組 自己動手實作新創空間系列 1.0 775.0 1 715.0 1 Kyle https://ithelp.ithome.com.tw/users/20006680/ironman
自我挑戰組 自我挑戰日記系列 1.1 503.5 10 347.6 10 bdp https://ithelp.ithome.com.tw/users/20107496/ironman
自我挑戰組 花式PHP系列 0.2222222222222222 411.1111111111111 9 728.7777777777778 9 牙膏大師 https://ithelp.ithome.com.tw/users/20106636/ironman
自我挑戰組 蚵蚵攻城記系列 0.3333333333333333 336.3333333333333 6 529.1666666666666 6 azer19890427 https://ithelp.ithome.com.tw/users/20107340/ironman
自我挑戰組 資安學習分享系列 0.0 651.0 2 245.0 2 abspsp5600 https://ithelp.ithome.com.tw/users/20107449/ironman
自我挑戰組 資訊技術解戈迪安繩結系列 0.0 442.77777777777777 9 1247.7777777777778 9 ntausr4 https://ithelp.ithome.com.tw/users/20107621/ironman
自我挑戰組 軟體工程漫談系列 0.5 632.1 10 1261.0 10 Kuma https://ithelp.ithome.com.tw/users/20107429/ironman
自我挑戰組 迷失在挨踢叢林的獎金獵人系列 0.0 367.3333333333333 3 601.0 3 獎金獵人 https://ithelp.ithome.com.tw/users/20107677/ironman
自我挑戰組 迷路還是繼續往前走的菜鳥工程師日常系列 0.0 599.1111111111111 9 832.4444444444445 9 overflow https://ithelp.ithome.com.tw/users/20107577/ironman

上一篇
Pandas(Python中的Excel)Day1-資料類型與讀寫檔案
下一篇
Pandas(Python中的Excel)Day2-DataFrame的資料描述與屬性
系列文
玩轉資料與機器學習-以自然語言處理為例31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中
0
Howard
iT邦新手 4 級 ‧ 2017-12-17 00:05:40

這篇好棒啊

Wolke iT邦新手 1 級 ‧ 2017-12-17 14:17:19 檢舉

web組讚 較多 是因為 參賽者 較 其他組 多好幾倍,自然 讚數也會多

這樣是有點道理,不過怎麼解釋DevOps觀看人數特別多呢?
/images/emoticon/emoticon39.gif

howard感謝啦!!!!

0
Summer
iT邦新手 3 級 ‧ 2017-12-17 00:59:30

很有趣!

我昨天翻了一下你們的主題,也覺得超級酷,不過我對js的理解不深,還沒機會做到測試。

0
微中子
iT邦新手 4 級 ‧ 2017-12-17 01:32:45

這篇真的有趣!

感謝啦,我看了你的個人頁,覺得你的經歷好豐富阿~~~~

1
幻幽
iT邦新手 2 級 ‧ 2017-12-17 18:47:37

真是好文章,來參考這篇寫BOT需要抓取的資料好了
主題小幫手也是想寫類似這樣的內容
看來默默被搶走內容了

只好自己寫更進階的內容了

抱歉,我發現我完全cover到你的主題QQ
我先說下我下周的打算,我目前已經做到文字分析,下周會把貼文PO出來。主要在比較各組的文字上面有那些比較明顯的特徵(不會有太多質性研究,都是計量比較多),然後把這周會講的資料整理的技巧用進去,為最後一周的訓練模型跟預測做準備。

幻幽 iT邦新手 2 級 ‧ 2017-12-18 22:25:29 檢舉

沒關係,會發現也不是容易的事情
我也挺好奇預預測的一些方式
可以多多交流呢

0
Kuro Hsu
iT邦新手 1 級 ‧ 2017-12-18 12:47:17

耶,原來我是廢話王 QQ

好了不起阿,應該要來個個人長度?排名的XDDD

我要留言

立即登入留言